Śledzie są jednym ze składników wielu świątecznych dań na stołach polskich rodzin. Niestety w ostatnich latach badacze zauważyli niepokojący trend karłowacenia śledzia oceanicznego. Celem projektu jest analiza danych o połowach śledzi oceanicznych wyławianych w Europie i wskazanie głównej przyczyny zjawiska ich karłowacenia.
Analiza danych dowiodła, że największym wpływem na występowanie zjawiska karłowacenia śledzi ma temperatura przy powierzchni wody. W trakcie jej dokonywania okazało się, że część rekordów była pusta. Aby poradzić sobie z tym problemem postanowiono puste wpisy zastąpić średnimi wartościami dla kolumn im odpowiadającym. Kolejnym problemem było to, że wpisy nie posiadały szczegółowej informacji na temat daty dokonania połowu. Z tego powodu ciężko było przygotować wykres rozmiaru śledzia na przestrzeni lat. Przyjęto, że wpisy dotyczące obserwacji są ułożone chronologicznie o na podstawie tego założenia przygotowano odpowiedni wykres.
W ramach projektu wykorzystano następujące pakiety:
W zbiorze danych występują poniższe kolumny:
Zbiór składa się z:
Poniżej znajduje się podsumowanie metryk wczytanego zbioru danych.
| X | length | cfin1 | cfin2 | chel1 | chel2 | lcop1 | lcop2 | fbar | recr | cumf | totaln | sst | sal | xmonth | nao | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Min. : 0 | Min. :19.0 | Length:52582 | Length:52582 | Length:52582 | Length:52582 | Length:52582 | Length:52582 | Min. :0.0680 | Min. : 140515 | Min. :0.06833 | Min. : 144137 | Length:52582 | Min. :35.40 | Min. : 1.000 | Min. :-4.89000 | |
| 1st Qu.:13145 | 1st Qu.:24.0 | Class :character | Class :character | Class :character | Class :character | Class :character | Class :character | 1st Qu.:0.2270 | 1st Qu.: 360061 | 1st Qu.:0.14809 | 1st Qu.: 306068 | Class :character | 1st Qu.:35.51 | 1st Qu.: 5.000 | 1st Qu.:-1.89000 | |
| Median :26291 | Median :25.5 | Mode :character | Mode :character | Mode :character | Mode :character | Mode :character | Mode :character | Median :0.3320 | Median : 421391 | Median :0.23191 | Median : 539558 | Mode :character | Median :35.51 | Median : 8.000 | Median : 0.20000 | |
| Mean :26291 | Mean :25.3 | NA | NA | NA | NA | NA | NA | Mean :0.3304 | Mean : 520367 | Mean :0.22981 | Mean : 514973 | NA | Mean :35.51 | Mean : 7.258 | Mean :-0.09236 | |
| 3rd Qu.:39436 | 3rd Qu.:26.5 | NA | NA | NA | NA | NA | NA | 3rd Qu.:0.4560 | 3rd Qu.: 724151 | 3rd Qu.:0.29803 | 3rd Qu.: 730351 | NA | 3rd Qu.:35.52 | 3rd Qu.: 9.000 | 3rd Qu.: 1.63000 | |
| Max. :52581 | Max. :32.5 | NA | NA | NA | NA | NA | NA | Max. :0.8490 | Max. :1565890 | Max. :0.39801 | Max. :1015595 | NA | Max. :35.61 | Max. :12.000 | Max. : 5.08000 |
Jak już wspomniano wcześniej część rekordów w zbiorze danych miało wartości puste. Z tego powodu zastąpiono je wartościami średnimi dla kolumn, w których one występują. W ten sposób “oczyszczono” zbiór danych. Ponadto jako, że kolumna X jest indeksem pomiaru postanowiono ją w pewnych przypadkach (dla sekcji zajmującej się regresorem oraz korelacji) usunąć. Poniżej podsuumowanie oczyszczonego zbioru danych.
Poniżej znajduje się podsumowanie metryk oczyszczonego zbioru danych.
| length | cfin1 | cfin2 | chel1 | chel2 | lcop1 | lcop2 | fbar | recr | cumf | totaln | sst | sal | xmonth | nao | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Min. :19.0 | Min. : 0.0000 | Min. : 0.0000 | Min. : 0.000 | Min. : 5.238 | Min. : 0.3074 | Min. : 7.849 | Min. :0.0680 | Min. : 140515 | Min. :0.06833 | Min. : 144137 | Min. :12.77 | Min. :35.40 | Min. : 1.000 | Min. :-4.89000 | |
| 1st Qu.:24.0 | 1st Qu.: 0.0000 | 1st Qu.: 0.2778 | 1st Qu.: 2.469 | 1st Qu.:13.589 | 1st Qu.: 2.5479 | 1st Qu.:17.808 | 1st Qu.:0.2270 | 1st Qu.: 360061 | 1st Qu.:0.14809 | 1st Qu.: 306068 | 1st Qu.:13.63 | 1st Qu.:35.51 | 1st Qu.: 5.000 | 1st Qu.:-1.89000 | |
| Median :25.5 | Median : 0.1333 | Median : 0.7012 | Median : 6.083 | Median :21.435 | Median : 7.1229 | Median :25.338 | Median :0.3320 | Median : 421391 | Median :0.23191 | Median : 539558 | Median :13.86 | Median :35.51 | Median : 8.000 | Median : 0.20000 | |
| Mean :25.3 | Mean : 0.4458 | Mean : 2.0248 | Mean :10.006 | Mean :21.221 | Mean : 12.8108 | Mean :28.419 | Mean :0.3304 | Mean : 520367 | Mean :0.22981 | Mean : 514973 | Mean :13.87 | Mean :35.51 | Mean : 7.258 | Mean :-0.09236 | |
| 3rd Qu.:26.5 | 3rd Qu.: 0.3603 | 3rd Qu.: 1.9973 | 3rd Qu.:11.500 | 3rd Qu.:27.193 | 3rd Qu.: 21.2315 | 3rd Qu.:37.232 | 3rd Qu.:0.4560 | 3rd Qu.: 724151 | 3rd Qu.:0.29803 | 3rd Qu.: 730351 | 3rd Qu.:14.16 | 3rd Qu.:35.52 | 3rd Qu.: 9.000 | 3rd Qu.: 1.63000 | |
| Max. :32.5 | Max. :37.6667 | Max. :19.3958 | Max. :75.000 | Max. :57.706 | Max. :115.5833 | Max. :68.736 | Max. :0.8490 | Max. :1565890 | Max. :0.39801 | Max. :1015595 | Max. :14.73 | Max. :35.61 | Max. :12.000 | Max. : 5.08000 |
Poniżej znajduje się przykładowe wartości z oczyszczonego zbioru danych.
| X | length | cfin1 | cfin2 | chel1 | chel2 | lcop1 | lcop2 | fbar | recr | cumf | totaln | sst | sal | xmonth | nao |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 23.0 | 0.02778 | 0.27785 | 2.46875 | 21.22108 | 2.54787 | 26.35881 | 0.356 | 482831 | 0.3059879 | 267380.8 | 14.30693 | 35.51234 | 7 | 2.8 |
| 1 | 22.5 | 0.02778 | 0.27785 | 2.46875 | 21.43548 | 2.54787 | 26.35881 | 0.356 | 482831 | 0.3059879 | 267380.8 | 14.30693 | 35.51234 | 7 | 2.8 |
| 2 | 25.0 | 0.02778 | 0.27785 | 2.46875 | 21.43548 | 2.54787 | 26.35881 | 0.356 | 482831 | 0.3059879 | 267380.8 | 14.30693 | 35.51234 | 7 | 2.8 |
| 3 | 25.5 | 0.02778 | 0.27785 | 2.46875 | 21.43548 | 2.54787 | 26.35881 | 0.356 | 482831 | 0.3059879 | 267380.8 | 14.30693 | 35.51234 | 7 | 2.8 |
| 4 | 24.0 | 0.02778 | 0.27785 | 2.46875 | 21.43548 | 2.54787 | 26.35881 | 0.356 | 482831 | 0.3059879 | 267380.8 | 14.30693 | 35.51234 | 7 | 2.8 |
| 5 | 22.0 | 0.02778 | 0.27785 | 2.46875 | 21.43548 | 2.54787 | 28.41883 | 0.356 | 482831 | 0.3059879 | 267380.8 | 14.30693 | 35.51234 | 7 | 2.8 |
Poniżej przedstawiono analizę poszczególnych atrybutów. Dla każdego z nich dodano wizualizację jak dany atrybut ma się do długości złowionych śledzi (kolor słupków). Na podstawie metryk zbioru danych ustalono zakres osi X dla wykresów.
Dostępność planktonu [zagęszczenie Calanus finmarchicus gat. 1]
Dostępność planktonu [zagęszczenie Calanus finmarchicus gat. 2]
Dostępność planktonu [zagęszczenie Calanus helgolandicus gat. 1]
Dostępność planktonu [zagęszczenie Calanus helgolandicus gat. 2]
Dostępność planktonu [zagęszczenie widłonogów gat. 1]
Dostępność planktonu [zagęszczenie widłonogów gat. 2]
Natężenie połowów w regionie [ułamek pozostawionego narybku]
Roczny narybek [liczba śledzi]
Łączne roczne natężenie połowów w regionie [ułamek pozostawionego narybku]
Łączna liczba ryb złowionych w ramach połowu [liczba śledzi]
Temperatura przy powierzchni wody [°C]
Poziom zasolenia wody [Knudsen ppt]
Miesiąc połowu [numer miesiąca]
Oscylacja północnoatlantycka [mb]
Poniżej przedstawiono korelację między zmiennymi w zbiorze danych wraz z jej graficzną reprezentacją.
| length | cfin1 | cfin2 | chel1 | chel2 | lcop1 | lcop2 | fbar | recr | cumf | totaln | sst | sal | xmonth | nao | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| length | 1.0000000 | 0.0809306 | 0.0960644 | 0.2167694 | -0.0134789 | 0.2317917 | 0.0484887 | 0.2545137 | -0.0084518 | 0.0083726 | 0.0966324 | -0.4450675 | 0.0343124 | 0.0106780 | -0.2583069 |
| cfin1 | 0.0809306 | 1.0000000 | 0.1474508 | 0.0904867 | 0.1954949 | 0.1153156 | 0.2018018 | -0.0641491 | 0.1150096 | -0.0481405 | 0.1274079 | 0.0098495 | 0.1284867 | 0.0087074 | 0.0060246 |
| cfin2 | 0.0960644 | 0.1474508 | 1.0000000 | -0.0028628 | 0.2982669 | -0.0387810 | 0.6347418 | 0.1518722 | -0.0989033 | 0.3328846 | -0.2141238 | -0.2303343 | -0.0807426 | 0.0144411 | -0.0067958 |
| chel1 | 0.2167694 | 0.0904867 | -0.0028628 | 1.0000000 | 0.2780614 | 0.9286525 | 0.2405469 | 0.1573302 | -0.0480795 | 0.0657501 | 0.1644233 | -0.2089523 | -0.1453538 | 0.0456571 | -0.4992272 |
| chel2 | -0.0134789 | 0.1954949 | 0.2982669 | 0.2780614 | 1.0000000 | 0.1697867 | 0.8592379 | 0.0253927 | 0.0013663 | 0.2582306 | -0.3699460 | 0.0079215 | -0.2190496 | 0.0707715 | -0.0586906 |
| lcop1 | 0.2317917 | 0.1153156 | -0.0387810 | 0.9286525 | 0.1697867 | 1.0000000 | 0.1450100 | 0.0936828 | 0.0031346 | -0.0123916 | 0.2623450 | -0.2558405 | -0.0982585 | 0.0312794 | -0.5424752 |
| lcop2 | 0.0484887 | 0.2018018 | 0.6347418 | 0.2405469 | 0.8592379 | 0.1450100 | 1.0000000 | 0.0512470 | -0.0010732 | 0.2874074 | -0.2995069 | -0.1168336 | -0.1826080 | 0.0635976 | -0.0436974 |
| fbar | 0.2545137 | -0.0641491 | 0.1518722 | 0.1573302 | 0.0253927 | 0.0936828 | 0.0512470 | 1.0000000 | -0.2374407 | 0.8165530 | -0.5075128 | -0.1751445 | 0.0422052 | 0.0072642 | 0.0653309 |
| recr | -0.0084518 | 0.1150096 | -0.0989033 | -0.0480795 | 0.0013663 | 0.0031346 | -0.0010732 | -0.2374407 | 1.0000000 | -0.2597449 | 0.3715324 | -0.1967584 | 0.2777045 | 0.0190695 | 0.0918079 |
| cumf | 0.0083726 | -0.0481405 | 0.3328846 | 0.0657501 | 0.2582306 | -0.0123916 | 0.2874074 | 0.8165530 | -0.2597449 | 1.0000000 | -0.7077921 | 0.0300699 | -0.1005671 | 0.0347028 | 0.2255328 |
| totaln | 0.0966324 | 0.1274079 | -0.2141238 | 0.1644233 | -0.3699460 | 0.2623450 | -0.2995069 | -0.5075128 | 0.3715324 | -0.7077921 | 1.0000000 | -0.2829433 | 0.1492770 | -0.0282281 | -0.3893286 |
| sst | -0.4450675 | 0.0098495 | -0.2303343 | -0.2089523 | 0.0079215 | -0.2558405 | -0.1168336 | -0.1751445 | -0.1967584 | 0.0300699 | -0.2829433 | 1.0000000 | 0.0099969 | -0.0087612 | 0.5045328 |
| sal | 0.0343124 | 0.1284867 | -0.0807426 | -0.1453538 | -0.2190496 | -0.0982585 | -0.1826080 | 0.0422052 | 0.2777045 | -0.1005671 | 0.1492770 | 0.0099969 | 1.0000000 | -0.0240495 | 0.1252016 |
| xmonth | 0.0106780 | 0.0087074 | 0.0144411 | 0.0456571 | 0.0707715 | 0.0312794 | 0.0635976 | 0.0072642 | 0.0190695 | 0.0347028 | -0.0282281 | -0.0087612 | -0.0240495 | 1.0000000 | -0.0034476 |
| nao | -0.2583069 | 0.0060246 | -0.0067958 | -0.4992272 | -0.0586906 | -0.5424752 | -0.0436974 | 0.0653309 | 0.0918079 | 0.2255328 | -0.3893286 | 0.5045328 | 0.1252016 | -0.0034476 | 1.0000000 |
| length | 1.0000000 |
| cfin1 | 0.0809306 |
| cfin2 | 0.0960644 |
| chel1 | 0.2167694 |
| chel2 | -0.0134789 |
| lcop1 | 0.2317917 |
| lcop2 | 0.0484887 |
| fbar | 0.2545137 |
| recr | -0.0084518 |
| cumf | 0.0083726 |
| totaln | 0.0966324 |
| sst | -0.4450675 |
| sal | 0.0343124 |
| xmonth | 0.0106780 |
| nao | -0.2583069 |
Po analizie korelacji zdecydowano, że największy wpływ na rozmiar śledzia ma temperatura wody przy powierzchni wody.
Długość śledzia w kolejnych pomiarach.
Do stworzenia powyższonego wykresu stworzono wartość porządkową X (wskazująca na numer obserwacji) i odpowiadającą jej długość śledzia.
Do stworzenia regresora przewidującego rozmiar śledzia wykorzystano algorytmy KNN z użyciem Repeated Cross Validation oraz Random Forest.
| length | cfin1 | cfin2 | chel1 | chel2 | lcop1 | lcop2 | fbar | recr | cumf | totaln | sst | sal | xmonth | nao | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Min. :19.00 | Min. : 0.0000 | Min. : 0.0000 | Min. : 0.000 | Min. : 5.238 | Min. : 0.3074 | Min. : 7.849 | Min. :0.0680 | Min. : 140515 | Min. :0.06833 | Min. : 144137 | Min. :12.77 | Min. :35.40 | Min. : 1.000 | Min. :-4.89000 | |
| 1st Qu.:24.00 | 1st Qu.: 0.0000 | 1st Qu.: 0.2778 | 1st Qu.: 2.469 | 1st Qu.:13.589 | 1st Qu.: 2.5479 | 1st Qu.:17.808 | 1st Qu.:0.2270 | 1st Qu.: 360061 | 1st Qu.:0.14809 | 1st Qu.: 306068 | 1st Qu.:13.63 | 1st Qu.:35.51 | 1st Qu.: 5.000 | 1st Qu.:-1.89000 | |
| Median :25.50 | Median : 0.1333 | Median : 0.7012 | Median : 6.083 | Median :21.435 | Median : 7.1229 | Median :25.338 | Median :0.3320 | Median : 421391 | Median :0.23191 | Median : 539558 | Median :13.86 | Median :35.51 | Median : 8.000 | Median : 0.20000 | |
| Mean :25.31 | Mean : 0.4444 | Mean : 2.0294 | Mean : 9.993 | Mean :21.209 | Mean : 12.7914 | Mean :28.432 | Mean :0.3309 | Mean : 520415 | Mean :0.23027 | Mean : 514921 | Mean :13.87 | Mean :35.51 | Mean : 7.238 | Mean :-0.08425 | |
| 3rd Qu.:26.50 | 3rd Qu.: 0.3603 | 3rd Qu.: 1.9973 | 3rd Qu.:11.500 | 3rd Qu.:27.193 | 3rd Qu.: 21.2315 | 3rd Qu.:37.232 | 3rd Qu.:0.4650 | 3rd Qu.: 724151 | 3rd Qu.:0.29803 | 3rd Qu.: 730351 | 3rd Qu.:14.16 | 3rd Qu.:35.52 | 3rd Qu.: 9.000 | 3rd Qu.: 1.70000 | |
| Max. :32.50 | Max. :37.6667 | Max. :19.3958 | Max. :75.000 | Max. :57.706 | Max. :115.5833 | Max. :68.736 | Max. :0.8490 | Max. :1565890 | Max. :0.39801 | Max. :1015595 | Max. :14.73 | Max. :35.61 | Max. :12.000 | Max. : 5.08000 |
| length | cfin1 | cfin2 | chel1 | chel2 | lcop1 | lcop2 | fbar | recr | cumf | totaln | sst | sal | xmonth | nao | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Min. :19.0 | Min. :0.0000 | Min. : 0.0000 | Min. : 0.000 | Min. : 5.238 | Min. : 0.3074 | Min. : 7.849 | Min. :0.0680 | Min. : 140515 | Min. :0.06833 | Min. : 144137 | Min. :12.77 | Min. :35.40 | Min. : 1.000 | Min. :-4.8900 | |
| 1st Qu.:24.0 | 1st Qu.:0.0000 | 1st Qu.: 0.2778 | 1st Qu.: 2.469 | 1st Qu.:13.589 | 1st Qu.: 2.5479 | 1st Qu.:17.808 | 1st Qu.:0.2010 | 1st Qu.: 360061 | 1st Qu.:0.14809 | 1st Qu.: 306068 | 1st Qu.:13.60 | 1st Qu.:35.51 | 1st Qu.: 6.000 | 1st Qu.:-1.9000 | |
| Median :25.5 | Median :0.1333 | Median : 0.7012 | Median : 6.387 | Median :21.435 | Median : 7.1229 | Median :25.338 | Median :0.3300 | Median : 421391 | Median :0.23191 | Median : 539558 | Median :13.86 | Median :35.51 | Median : 8.000 | Median : 0.2000 | |
| Mean :25.3 | Mean :0.4500 | Mean : 2.0111 | Mean :10.043 | Mean :21.259 | Mean :12.8691 | Mean :28.378 | Mean :0.3286 | Mean : 520223 | Mean :0.22842 | Mean : 515130 | Mean :13.88 | Mean :35.51 | Mean : 7.315 | Mean :-0.1167 | |
| 3rd Qu.:26.5 | 3rd Qu.:0.3333 | 3rd Qu.: 1.9973 | 3rd Qu.:11.500 | 3rd Qu.:27.193 | 3rd Qu.:21.2315 | 3rd Qu.:37.232 | 3rd Qu.:0.4560 | 3rd Qu.: 724151 | 3rd Qu.:0.29518 | 3rd Qu.: 730351 | 3rd Qu.:14.16 | 3rd Qu.:35.52 | 3rd Qu.: 9.000 | 3rd Qu.: 1.6300 | |
| Max. :31.5 | Max. :4.8333 | Max. :19.3958 | Max. :75.000 | Max. :57.706 | Max. :75.0000 | Max. :68.736 | Max. :0.8490 | Max. :1380210 | Max. :0.39801 | Max. :1015595 | Max. :14.73 | Max. :35.61 | Max. :12.000 | Max. : 5.0800 |
## k-Nearest Neighbors
##
## 39438 samples
## 14 predictor
##
## Pre-processing: centered (14), scaled (14)
## Resampling: Cross-Validated (3 fold, repeated 3 times)
## Summary of sample sizes: 26292, 26292, 26292, 26292, 26292, 26292, ...
## Resampling results across tuning parameters:
##
## k RMSE Rsquared MAE
## 5 1.156272 0.5111867 0.9111354
## 7 1.154223 0.5127439 0.9094668
## 9 1.152915 0.5137140 0.9085979
## 11 1.152830 0.5137220 0.9083246
## 13 1.152966 0.5135747 0.9084672
## 15 1.153379 0.5131957 0.9088286
## 17 1.153665 0.5129461 0.9090859
## 19 1.153757 0.5128546 0.9092108
## 21 1.154055 0.5125932 0.9095286
## 23 1.154331 0.5123416 0.9097773
## 25 1.154660 0.5120468 0.9100509
## 27 1.155126 0.5116541 0.9103673
## 29 1.155350 0.5114618 0.9107191
## 31 1.155474 0.5113439 0.9109214
## 33 1.155506 0.5113150 0.9109642
## 35 1.155676 0.5111829 0.9111564
## 37 1.156054 0.5108784 0.9113821
## 39 1.156331 0.5106399 0.9116572
## 41 1.156337 0.5106289 0.9116569
## 43 1.156970 0.5100947 0.9122532
##
## RMSE was used to select the optimal model using the smallest value.
## The final value used for the model was k = 11.
## [1] 23.28723 23.28723 23.41071 23.41071 23.41071 23.41071
## Random Forest
##
## 39438 samples
## 14 predictor
##
## Pre-processing: centered (14), scaled (14)
## Resampling: Cross-Validated (3 fold, repeated 3 times)
## Summary of sample sizes: 26292, 26292, 26292, 26292, 26292, 26292, ...
## Resampling results across tuning parameters:
##
## mtry RMSE Rsquared MAE
## 2 1.164261 0.5037663 0.9210838
## 8 1.159644 0.5084627 0.9136142
## 14 1.167483 0.5025544 0.9192388
##
## RMSE was used to select the optimal model using the smallest value.
## The final value used for the model was mtry = 8.
## 2 5 13 15 17 20
## 23.28128 23.28128 23.33129 23.33129 23.33129 23.33129
Najważniejszym atrybutem okazała się temperatura przy powierzchni wody. Oznacza to, że to właśnie ona ma największy wpływ na długość śledzi.
| obs | pred | |
|---|---|---|
| Min. :19.0 | Min. :22.31 | |
| 1st Qu.:24.0 | 1st Qu.:24.53 | |
| Median :25.5 | Median :25.36 | |
| Mean :25.3 | Mean :25.31 | |
| 3rd Qu.:26.5 | 3rd Qu.:26.21 | |
| Max. :31.5 | Max. :28.13 |
| obs | pred | |
|---|---|---|
| Min. :19.0 | Min. :21.91 | |
| 1st Qu.:24.0 | 1st Qu.:24.53 | |
| Median :25.5 | Median :25.37 | |
| Mean :25.3 | Mean :25.30 | |
| 3rd Qu.:26.5 | 3rd Qu.:26.21 | |
| Max. :31.5 | Max. :28.81 |